Es una ciencia que transforma, mediante métodos matemáticos, datos en información para la toma de decisiones (ine.cl).
Bioestadística: El estudio científico de los datos numéricos basado en hechos naturales (Sokal y Rohlf 1987).
Alcances
| Ayuda a conocer y entender poblaciones (muchos individuos). | Ayuda a conocer relaciones complejas entre muchas variables | Ayuda a formular y resolver preguntas de investigación que involucre un gran número de casos. | Ayuda a conocer, describir y predecir fenómenos que ocurren muchas veces. |
| Observación | Información obtenida a partir de una observación o medición de la unidad más mínima de la muestra (individuos, instituciones, marcas o modelos, países, etc.). Modelos longitudinales, medición en el tiempo |
| Variable | Grupo o set de observaciones o mediciones. TIENE QUE VARIAR |
| Población o universo | Totalidad de las observaciones individuales sobre las cuales se quiere realizar inferencias |
| Muestra | Colección de observaciones seleccionada de una manera específica |
| Función | Relación entre una serie de entradas y un set de salidas permitidas con la propiedad de que cada entrada está relacionada exactamente con cada salida. http://fooplot.com/ |
| Parámetro | Valor referido a una población. Número que resume o caracteriza a una población o una distribución de probabilidades |
| Estimador muestral del parámetro | Función con el propósito de estimar un parámetro dentro de una muestra. Pueden ser puntuales o intervalos |
| Distribución de probabilidades | Función que asigna la probabilidad de ocurrencia de un evento. Modelo matemático. |
Variables continuas: poseen valores de carácter infinitesimal. Entre dos valores siempre puede existir un valor intermedio. Toma valores a lo largo de un continuo. Números racionales e irracionales.
Variables discretas: No acepta valores intermedios entre dos valores contiguos. Números enteros.
Categóricas nominales: Los valores no representan un continuo discretizado, sino tipos. Marca de auto, religión, sexo, género, etc.
Categóricas ordinales: parecidas a las nominales, pero tienen una relación de jerarquía entre las categorías, por ejemplo: Estratos Socioeconómicos, Niveles Educativos, Rangos militares, Ranking Deportivo, etc
Idealmente la muestra debe ser aleatoria, así se evita sesgo y puede representar el universo
Número que resume o caracteriza a una población o una distribución de probabilidades.
| Dato | Registro de una “observación” realizada a elementos, cosas o personas, conforme a las variables definidas |
| Codificación | Es el proceso por el cual los datos (cuantitativos o cualitativos), son convertidos en símbolos (básicamente numéricos), según unas determinadas reglas o escalas |
BASES DE DATOS
Es un conjunto de datos agrupados en diferentes variables y pertenecientes a un mismo contexto de investigación almacenados u organizados sistemáticamente en forma de filas y columnas, para posteriores análisis estadísticos por medios informáticos
TIPOS DE BASES DE DATOS
Las bases de datos pueden clasificarse de varias maneras, de acuerdo al criterio elegido para su clasificación:
Según la variabilidad de los datos almacenados
Según el contenido
CARACTERISTICAS DE LAS BASES DE DATOS
En este curso/taller nos enfocaremos en el uso de programa R
Como vimos R es reciente, tiene poco más de 20 años desde su primera versión y es debido a la licencia GNU, que hoy en día sea el lenguaje más utilizado en investigación por la comunidad estadística, siendo además muy popular en el campo de la investigación biomédica, la bioinformática y la economía.
There is an old rule of thumb that says 80% of your data analysis time is spent transforming, reshaping, merging, and otherwise managing your data
“Hay una vieja regla general que dice que el 80% de su tiempo de análisis de datos se dedica a transformar, remodelar, fusionar y administrar sus datos”.